智能论文笔记

Learned Smartphone ISP on Mobile GPUs with Deep Learning, Mobile AI & AIM 2022 Challenge: Report

Andrey Ignatov , Radu Timofte , Shuai Liu , Chaoyu Feng , Furui Bai , Xiaotao Wang , Lei Lei , Ziyao Yi , Yan Xiang , Zibin Liu

分类：计算机视觉

2022-11-07

The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.

translated by 谷歌翻译

Semi-Supervised Semantic Segmentation with Cross Teacher Training

Hui Xiao , Li Dong , Kangkang Song , Hao Xu , Shuibo Fu , Diqun Yan , Chengbin Peng

分类：计算机视觉

2022-09-03

卷积神经网络可以在语义细分任务中实现出色的性能。但是，这种神经网络方法在很大程度上依赖于昂贵的像素级注释。半监督学习是解决这个问题的有前途的决议，但其表现仍然远远落后于完全受监督的对手。这项工作提出了一个带有三个模块的跨教师培训框架，可显着改善传统的半监督学习方法。核心是跨教师模块，可以同时减少同伴网络之间的耦合以及教师和学生网络之间的错误积累。此外，我们提出了两个互补的对比学习模块。高级模块可以将高质量的知识从标记的数据传输到未标记的数据，并在特征空间中促进类之间的分离。低级模块可以鼓励从同伴网络中的高质量功能学习的低质量功能。在实验中，跨教师模块显着提高了传统的学生教师方法的性能，而我们的框架在基准数据集上的表现优于现行方法。我们的CTT源代码将发布。

translated by 谷歌翻译

Hierarchical Capsule Prediction Network for Marketing Campaigns Effect

Zhixuan Chu , Hui Ding , Guang Zeng , Yuchen Huang , Tan Yan , Yulin Kang , Sheng Li

分类： (统计)机器学习 | 机器学习

2022-08-22

营销活动是一系列战略活动，可以促进企业的目标。在真正的工业场景中，营销活动的效果预测非常复杂且具有挑战性，因为通常从观察数据中学到了先验知识，而没有任何营销活动干预。此外，每个主题始终在几个营销活动的干预下同时受到干扰。因此，我们无法轻松解析和评估单个营销活动的效果。据我们所知，目前尚无有效的方法来解决此类问题，即，基于具有多个相互缠绕事件的层次结构对个体级别的预测任务进行建模。在本文中，我们对效果预测任务中涉及的基础解析树的结构进行了深入的分析，并进一步建立了一个层次结构胶囊预测网络（HAPNET）来预测营销活动的影响。基于合成数据和实际数据的广泛结果证明了我们模型比最新方法的优越性，并在实际工业应用中表现出显着的实用性。

translated by 谷歌翻译

On Improving the Performance of Glitch Classification for Gravitational Wave Detection by using Generative Adversarial Networks

Jianqi Yan , Alex P. Leung , David C. Y. Hui

分类：机器学习

2022-07-08

频谱图分类在分析引力波数据中起重要作用。在本文中，我们提出了一个框架来通过使用生成对抗网络（GAN）来改善分类性能。由于注释光谱图需要大量的努力和专业知识，因此训练示例的数量非常有限。但是，众所周知，只有当训练集的样本量足够大时，深层网络才能表现良好。此外，不同类别中的样本数量不平衡也会阻碍性能。为了解决这些问题，我们提出了一个基于GAN的数据增强框架。虽然无法在频谱图上应用常规图像的标准数据增强方法，但我们发现，甘恩（Progan）的一种变体能够生成高分辨率频谱图，这些光谱图与高分辨率原始图像的质量一致并提供了理想的多样性。我们通过将{\ it Gravity间谍}数据集中的小故障与GAN生成的频谱图分类为训练，从而验证了我们的框架。我们表明，所提出的方法可以为使用深网的分类提供转移学习的替代方法，即使用高分辨率GAN进行数据增强。此外，可以大大降低分类性能的波动，用于训练和评估的小样本量。在我们的框架中，使用训练有素的网络，我们还检查了{\ it Gravity Spy}中标签异常的频谱图。

translated by 谷歌翻译

Product Segmentation Newsvendor Problems: A Robust Learning Approach

Xiaoli Yan , Hui Yu , Jiawen Li , Frank Youhua Chen

分类：机器学习

2022-07-08

我们提出和分析产品细分新闻供应商问题，该问题概括了一系列可腐烂项目的细分销售现象。产品细分新闻册问题是新闻企业问题的新变体，反映出卖方通过在不确定的子项目需求的背景下确定整个项目的库存来最大化利润。我们通过假设随机需求的平均值和协方差矩阵来得出封闭形式的稳健订购决定，但不能提供分布。但是，在最糟糕的需求情况下总是在解决方案保守主义方面始终保持权衡的强大方法。因此，传统的健壮方案提供了不令人满意的。在本文中，我们整合了强大而深厚的增强学习（DRL）技术，并提出了一种新的范式，称为强大的学习，以提高强大的政策的吸引力。值得注意的是，我们将强大的决定作为人类领域的知识做出，并通过设计完整的人机协作经验，规范决策和正则化回报，将其实施到DRL的培训过程中。仿真结果证实，我们的方法有效地提高了稳健的性能，并可以推广到需要强大但不保守的解决方案的各种问题。同时，较少的培训情节，提高训练稳定性以及行为的解释性可能有机会促进运营实践中DRL算法的部署。此外，RLDQN解决1000维需求方案的成功尝试表明，该算法为通过人机协作解决了复杂的操作问题提供了一条途径，并可能具有解决其他复杂的运营管理问题的潜在意义。

translated by 谷歌翻译

Improving Subgraph Representation Learning via Multi-View Augmentation

Yili Shen , Jiaxu Yan , Cheng-Wei Ju , Jun Yi , Zhou Lin , Hui Guan

分类：机器学习 | 人工智能

2022-05-25

基于图形神经网络（GNN）的子图表学习在科学进步中表现出广泛的应用，例如对分子结构 - 特质关系和集体细胞功能的预测。特别是，图表增强技术在改善基于图和基于节点的分类任务方面显示出令人鼓舞的结果。尽管如此，在现有的基于GNN的子图表示学习研究中很少探索它们。在这项研究中，我们开发了一种新型的多视图增强机制，以改善子图表示学习模型，从而改善下游预测任务的准确性。我们的增强技术创建了多种子图的变体，并将这些变体嵌入原始图中，以实现高度改善的训练效率，可伸缩性和准确性。几个现实世界和生理数据集的基准实验证明了我们提出的多视图增强技术在子图表学习中的优越性。

translated by 谷歌翻译

Daily peak electrical load forecasting with a multi-resolution approach

Yvenn Amara-Ouali , Matteo Fasiolo , Yannig Goude , Hui Yan

分类：机器学习

2021-12-08

在智能电网和负载平衡的背景下，每日峰值负荷预测已成为能源行业利益相关者的关键活动。对峰值幅度和时序的理解对于实现峰值剃须等智能电网策略至关重要。本文提出的建模方法利用了高分辨率和低分辨率信息来预测每日峰值需求规模和时序。由此产生的多分辨率建模框架可以适应不同的模型类。本文的主要贡献是一般性和正式介绍多分辨率建模方法，b）关于通过广义添加剂模型和神经网络和C）实验结果的不同决议的建模方法的讨论英国电力市场。结果证实，建议的建模方法的预测性能与低分辨率和高分辨率替代品具有竞争力。

translated by 谷歌翻译

Capturing, Reconstructing, and Simulating: the UrbanScene3D Dataset

Liqiang Lin , Yilin Liu , Yue Hu , Xingguang Yan , Ke Xie , Hui Huang

分类：计算机视觉

2021-07-09

我们提出了Urbanscene3D，这是一个大规模的数据平台，用于研究城市场景感知和重建。 Urbanscene3D包含超过128K的高分辨率图像，其中涵盖了16个场景，包括大规模的真实城市区域和合成城市，总共有136 km^2区域。该数据集还包含具有不同观察模式的高精度激光扫描和数百个图像集，它们为设计和评估空中路径计划和3D重建算法提供了全面的基准。此外，该数据集是基于虚幻引擎和AirSim模拟器构建的数据集以及数据集中每个建筑物的手动注释的唯一实例标签，启用了各种数据的生成，例如2D/3D边界框，，以及3D点云/网状分段等。具有物理发动机和照明系统的模拟器不仅产生各种数据，而且还使用户能够在拟议的城市环境中模拟汽车或无人机以进行未来的研究。

translated by 谷歌翻译

Cross Modal Transformer via Coordinates Encoding for 3D Object Dectection

Junjie Yan , Yingfei Liu , Jianjian Sun , Fan Jia , Shuailin Li , Tiancai Wang , Xiangyu Zhang

分类：计算机视觉

2023-01-03

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.

translated by 谷歌翻译

MGTAB: A Multi-Relational Graph-Based Twitter Account Detection Benchmark

Shuhao Shi , Kai Qiao , Jian Chen , Shuai Yang , Jie Yang , Baojie Song , Linyuan Wang , Bin Yan

分类：计算机视觉

2023-01-03

The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.

translated by 谷歌翻译